稀疏的高斯工艺是高通量贝叶斯优化(BO)循环的关键组成部分 - 越来越普遍的设置,评估预算大且高度平行。通过使用可用数据的代表性子集来构建近似后代,稀疏模型通过依靠一组较小的伪观察(即所谓的诱导点)代替完整的数据集来大大降低替代建模的计算成本。但是,当前设计诱导点的方法在BO循环中不合适,因为它们试图减少目标函数的全球不确定性。因此,牺牲了精确优化所需的有前途和数据密集区域的高保真模型,而是牺牲了计算资源,而是浪费在已经已知的亚地区的空间的建模区域上。受基于熵的BO方法的启发,我们提出了一种新颖的诱导点设计,该设计使用原则的信息理论标准选择诱导点。通过选择诱导点以最大程度地降低目标函数最大值的全局不确定性和不确定性,我们构建了能够支持高精度高通量BO的替代模型。
translated by 谷歌翻译
最近的工作引入了深度内核过程作为NNS的完全基于内核的替代方案(Aitchison等人.2020)。深入的内核过程通过在正半定矩阵上的分布和执行非线性变换的分布中来灵活地学习良好的顶层表示。一个特定的深核流程,深度愿望过程(DWP)是特别令人感兴趣的,因为它可以与其相当于可以完全表达克矩阵的核的深层高斯过程(DGP)前沿。然而,由于缺乏积极半定矩阵的分布缺乏足够灵活的分布,DWP的推断尚未实现。在这里,我们通过推广Bartlett对概率密度的分解来提供一种新的半定矩阵在正半定矩阵上获得灵活分布的新方法。我们使用这个新的分发来开发包括跨层依赖的DWP的近似后验。我们为DWP开发了双随机诱导点推理方案,实验显示DWP中的推断可以提高在DGP中的性能,在DGP中具有相同的产品。
translated by 谷歌翻译
基于近似基础的Koopman操作员或发电机的数据驱动的非线性动力系统模型已被证明是预测,功能学习,状态估计和控制的成功工具。众所周知,用于控制膜系统的Koopman发电机还对输入具有仿射依赖性,从而导致动力学的方便有限维双线性近似。然而,仍然存在两个主要障碍,限制了当前方法的范围,以逼近系统的koopman发电机。首先,现有方法的性能在很大程度上取决于要近似Koopman Generator的基础函数的选择;目前,目前尚无通用方法来为无法衡量保存的系统选择它们。其次,如果我们不观察到完整的状态,我们可能无法访问足够丰富的此类功能来描述动态。这是因为在有驱动时,通常使用时间延迟的可观察物的方法失败。为了解决这些问题,我们将Koopman Generator控制的可观察到的动力学写为双线性隐藏Markov模型,并使用预期最大化(EM)算法确定模型参数。 E-Step涉及标准的Kalman滤波器和更光滑,而M-Step类似于发电机的控制效果模式分解。我们在三个示例上证明了该方法的性能,包括恢复有限的Koopman-Invariant子空间,用于具有缓慢歧管的驱动系统;估计非强制性行驶方程的Koopman本征函数;仅基于提升和阻力的嘈杂观察,对流体弹球系统的模型预测控制。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
我们通过与与前面令牌的局部相似度,通过调节从大语料库检索的文档块来增强自动回归语言模型。尽管使用25美元\时分,我们的检索增强型变压器(RetroCro)的检索增强型变压器(RetroCr)对GPT-3和侏罗纪-1获得了可比性的性能。微调后,复古表演转换为下游知识密集型任务,如问题应答。复古结合了冷冻BERT猎犬,一种可微分的编码器和块状的横向机制,以预测基于数量级的令牌,而不是训练期间通常消耗的数量。我们通常从头开始训练复古,还可以快速改造预先接受的变压器,通过检索,仍然达到良好的性能。我们的工作通过以前所未有的规模开辟了通过显式内存改进语言模型的新途径。
translated by 谷歌翻译
放射线学使用定量医学成像特征来预测临床结果。目前,在新的临床应用中,必须通过启发式试验和纠正过程手动完成各种可用选项的最佳放射组方法。在这项研究中,我们提出了一个框架,以自动优化每个应用程序的放射线工作流程的构建。为此,我们将放射线学作为模块化工作流程,并为每个组件包含大量的常见算法。为了优化每个应用程序的工作流程,我们使用随机搜索和结合使用自动化机器学习。我们在十二个不同的临床应用中评估我们的方法,从而在曲线下导致以下区域:1)脂肪肉瘤(0.83); 2)脱粘型纤维瘤病(0.82); 3)原发性肝肿瘤(0.80); 4)胃肠道肿瘤(0.77); 5)结直肠肝转移(0.61); 6)黑色素瘤转移(0.45); 7)肝细胞癌(0.75); 8)肠系膜纤维化(0.80); 9)前列腺癌(0.72); 10)神经胶质瘤(0.71); 11)阿尔茨海默氏病(0.87);和12)头颈癌(0.84)。我们表明,我们的框架具有比较人类专家的竞争性能,优于放射线基线,并且表现相似或优于贝叶斯优化和更高级的合奏方法。最后,我们的方法完全自动优化了放射线工作流的构建,从而简化了在新应用程序中对放射线生物标志物的搜索。为了促进可重复性和未来的研究,我们公开发布了六个数据集,框架的软件实施以及重现这项研究的代码。
translated by 谷歌翻译
对不确定度和鲁棒性的高质量估计对于众多现实世界的应用来说至关重要,特别是对于深入学习,这是利用许多部署的ML系统。因此,比较改善这些估计的技术的能力对于研究和实践相似非常重要。然而,由于一系列原因,通常缺乏方法的竞争比较,包括:计算广泛调整的可用性,加入足够多的基线,以及用于再现性的具体文件。在本文中,我们介绍了不确定性的基线:在各种任务中的标准和最先进的深度学习方法的高质量实现。从本撰写中,集合跨越9项方法,每个方法都有至少5个度量。每个基线都是一个独立的实验管道,易于可重复使用和可伸缩的部件。我们的目标是提供具有新方法或应用的实验的即时出发点。此外,我们还提供模型检查点,实验输出为Python笔记本,以及用于比较结果的排行榜。代码在https://github.com/google/uncertainty-baselines。
translated by 谷歌翻译
近似的carath \'oOdory定理指出,给定一个紧凑的凸起设置$ \ mathcal {c} \ subset \ mathbb {r} ^ n $和$ p \ in \ left [2,+ \ idty \ with [$,每个点$ x ^ * \ in \ mathcal {c} $可以近似为$ \ epsilon $ -curacy,以$ \ ell_p $ -norm作为$ \ mathcal {o}的凸组合(pd_p ^ 2 / epsilon ^ 2 )$ \ mathcal {c} $的$顶点,$ d_p $是$ \ ell_p $ -norm的$ \ mathcal {c} $的直径。可以使用概率参数或通过将镜像血清应用于双问题来构建满足这些属性的解决方案。通过通过Frank-Wolfe算法解决原始问题,提供了一种简化的分析并导致高效的实用方法来重新审视大致的Carath \'oODory问题。此外,当$ x ^ * $处于$ \ mathcal {c} $的内部时,改进的基数范围是使用弗兰克沃尔夫算法的现有收敛速率导出的,当$ \ mathcal {c} $的内部时,当$ x ^ * $时直径小的顶点子集的组合,或者当$ \ mathcal {c} $均匀凸起时。当$ p \ leve [1,2 \ light [\ cup \ {+ \ infty \ infty \ id \} $ exmooth变体,我们还提出了基数界限。最后,我们解决了在$ \ ell_p $ -norm中找到稀疏近似投影的问题,$ \ ell_p $ -norm,$ p \ in \ left [1,+ \ idty \右] $。
translated by 谷歌翻译
Making histopathology image classifiers robust to a wide range of real-world variability is a challenging task. Here, we describe a candidate deep learning solution for the Mitosis Domain Generalization Challenge 2022 (MIDOG) to address the problem of generalization for mitosis detection in images of hematoxylin-eosin-stained histology slides under high variability (scanner, tissue type and species variability). Our approach consists in training a rotation-invariant deep learning model using aggressive data augmentation with a training set enriched with hard negative examples and automatically selected negative examples from the unlabeled part of the challenge dataset. To optimize the performance of our models, we investigated a hard negative mining regime search procedure that lead us to train our best model using a subset of image patches representing 19.6% of our training partition of the challenge dataset. Our candidate model ensemble achieved a F1-score of .697 on the final test set after automated evaluation on the challenge platform, achieving the third best overall score in the MIDOG 2022 Challenge.
translated by 谷歌翻译
Supervised Question Answering systems (QA systems) rely on domain-specific human-labeled data for training. Unsupervised QA systems generate their own question-answer training pairs, typically using secondary knowledge sources to achieve this outcome. Our approach (called PIE-QG) uses Open Information Extraction (OpenIE) to generate synthetic training questions from paraphrased passages and uses the question-answer pairs as training data for a language model for a state-of-the-art QA system based on BERT. Triples in the form of <subject, predicate, object> are extracted from each passage, and questions are formed with subjects (or objects) and predicates while objects (or subjects) are considered as answers. Experimenting on five extractive QA datasets demonstrates that our technique achieves on-par performance with existing state-of-the-art QA systems with the benefit of being trained on an order of magnitude fewer documents and without any recourse to external reference data sources.
translated by 谷歌翻译